빅데이터와 과학기술

OPENING NUMBER · 압도적 규모

"인류 역사 전체의 데이터의 90%가 지난 2년 사이에 만들어졌다."

스마트폰·웹·SNS·IoT 센서·CCTV·인공위성 ― 모든 것이 데이터를 만든다. 매분 유튜브에 500시간 영상 업로드, 구글에 600만 건 검색, 인스타그램에 사진 7만 장이 올라온다. 이 모든 정보를 모으면 해마다 75제타바이트 ― 1조 GB의 75배 ― 가 쌓인다. 이 데이터를 잘 분석하면 새로운 과학적 발견과 사회적 가치가 만들어진다.

SECTION 01

빅데이터의 4V — 무엇이 '빅'한가?

빅데이터(Big Data)는 단순히 양이 많은 데이터가 아니다. 2001년 더그 레이니(Doug Laney)가 처음 정의한 이래 4가지 V(Volume·Velocity·Variety·Veracity)로 특징짓는다. 기존 데이터베이스로는 저장·처리할 수 없을 만큼 크고, 끊임없이 흘러들어오며, 형태도 제각각이고, 진위 검증까지 필요한 데이터다. 인류는 지금 매일 2.5 엑사바이트(EB) = 250경 바이트의 데이터를 만든다 — 구텐베르크 인쇄술이 발명된 1450년 이후 500년간 인쇄된 모든 책이 약 5 EB. 인류 역사 전체의 인쇄물을 2일마다 새로 만드는 셈이다.

📏 데이터 단위의 사다리 — KB부터 YB까지

DATA UNITS · 1024배씩 커지는 정보의 척도

📦 1 ZB = 1조 GB = 미국 의회도서관(인쇄물 1억 5천만 점)을 20만 번 채울 수 있는 양. 인류가 2025년에 생성할 데이터는 약 175 ZB — 매년 60% 이상 증가하는 폭발적 성장. 이 모든 데이터는 GPS·CCTV·SNS·IoT 센서·스마트폰·인공위성에서 매 순간 쏟아져 나온다.

🔥 빅데이터를 정의하는 4V

V1 · VOLUME

방대한 양

SIZE OF DATA

기존 데이터베이스로 저장조차 불가능한 규모. GB·TB·PB·EB·ZB 단위가 일상이 됐다.

175 ZB

2025년 연간 전 세계 데이터 (IDC)

EXAMPLE월마트 매일 2.5 PB 거래 분석, CERN 입자 충돌 1년에 50 PB

V2 · VELOCITY

빠른 속도

SPEED OF FLOW

실시간(스트리밍)으로 끊임없이 생성·처리된다. 1초도 늦으면 의미를 잃는 데이터가 많다.

4만 건/초

구글 검색 처리량 (초당)

EXAMPLE주식 시장 1마이크로초 거래, 자율주행차 초당 GB 단위 센서 데이터

V3 · VARIETY

다양한 형태

TYPES OF DATA

정형(숫자·표) + 반정형(JSON·로그) + 비정형(영상·음성·이미지) 혼재. 전체 데이터의 80%가 비정형.

80%

비정형 데이터 비율 (IBM)

EXAMPLEX-ray 영상 + 진료 기록 + 환자 음성 + 유전체 데이터를 한 번에 분석

V4 · VERACITY

신뢰성

TRUTH OF DATA

데이터엔 오류·잡음·편향·가짜가 섞여 있다. 신뢰성 검증이 분석의 80%를 차지한다 (데이터 정제).

$3.1조

미국 경제가 잘못된 데이터로 잃는 연간 손실

EXAMPLESNS 가짜뉴스, 센서 오작동, 편향된 표본 → 잘못된 결정

💡 5V·7V로 확장된 정의 — 최근엔 ⑤ Value(가치 — 분석을 통한 비즈니스·과학적 가치 창출), ⑥ Variability(변동성 — 의미가 상황에 따라 변함), ⑦ Visualization(시각화 — 인간이 이해할 수 있게 그림으로)까지 포함하기도 한다. 그러나 핵심은 여전히 4V — 크고, 빠르고, 다양하고, 신뢰성을 검증해야 하는 데이터가 빅데이터다.

📡 데이터는 어디서 오나? — 매 순간 흐르는 데이터의 원천

📱

스마트폰

68억 대

위치·검색·결제·앱 사용 — 매 순간 데이터 전송

📷

CCTV·카메라

10억 대

영상은 가장 무거운 데이터. 한 대당 일 평균 50 GB

🌐

SNS·검색

매분 600만 검색

구글·페북·인스타·X — 텍스트·사진·동영상 폭발

🔌

IoT 센서

300억 대

가전·산업·도시 — 온도·진동·전력 등 측정값

🛰

인공위성

10,000기

기상·지구 관측·통신 — 일 평균 100 TB 다운로드

🚗

자율주행차

1대당 4TB/일

카메라·라이다·레이더 — 도로 위 데이터 폭증

⌚

웨어러블

15억 대

심박수·수면·운동 — 24시간 건강 데이터 측정

🧬

유전체·실험

1인 200 GB

한 사람 유전체만 200 GB, 입자물리 실험은 PB 단위

⏱ 인터넷 단 1분에 일어나는 일

SEARCH ENGINE

600만

구글 검색

1초당 약 10만 건 — 인류의 모든 질문이 매 순간 쌓인다.

VIDEO PLATFORM

500시간

유튜브 업로드

혼자 다 보려면 21년 걸리는 영상이 1분마다 추가.

SOCIAL MEDIA

6만 9천

인스타그램 사진

1분에 사진 7만 장 + 동영상 수만 개가 SNS에 올라온다.

MESSAGING

5억 통

왓츠앱 메시지

전 세계 통신 대부분이 디지털 텍스트 데이터로 저장된다.

E-COMMERCE

$10억+

아마존·이커머스 매출

거래 1건마다 100개 이상의 데이터 포인트가 생성·저장.

STREAMING

23만 시간

넷플릭스 스트리밍

전 세계 인터넷 트래픽의 약 15%가 넷플릭스 영상이다.

🕰 20세기 vs 21세기 — 데이터 문명의 전환점

20TH CENTURY

아날로그·소량의 데이터 시대

저장 매체 — 종이·필름·자기테이프·플로피디스크

생성 주체 — 정부·기업·연구소 등 소수 기관

규모 — 평생 모은 자료가 MB~GB 수준

접근 — 도서관·문서고 직접 방문, 검색 어려움

분석 — 사람이 직접, 통계학자·연구원 중심

의사결정 — 경험·직관·소수 표본

21ST CENTURY

디지털·빅데이터 시대

저장 매체 — SSD·클라우드·데이터센터 (KB→ZB)

생성 주체 — 모든 개인·기기가 데이터를 만듦

규모 — 하루에 EB 단위 데이터 생성

접근 — 클릭 한 번, 24시간 검색·다운로드

분석 — AI·머신러닝이 자동 분석·예측

의사결정 — 전수 데이터 + AI 예측

🔄 빅데이터 처리 5단계 — 수집부터 활용까지

STEP 01

📥

수집 (Collect)

센서·로그·API·크롤링으로 데이터 모으기

STEP 02

🗄

저장 (Store)

Hadoop·NoSQL·클라우드 분산 저장

STEP 03

🧹

정제 (Clean)

결측값·이상치·중복 제거 (80% 시간 소요)

STEP 04

🧠

분석 (Analyze)

통계·머신러닝·딥러닝으로 패턴 추출

STEP 05

📊

시각화 (Visualize)

그래프·대시보드·지도로 인사이트 표현

🇰🇷

한국의 빅데이터 — 데이터 강국으로

세계 1위 인터넷 속도·스마트폰 보급률·전자정부 — 데이터 생성·활용의 최전선

CASE 01 · GOV DATA

공공데이터포털 (data.go.kr)

2013년 개방. 행정·교통·기상·의료 등 정부 데이터 88,000+종 무료 공개. 시민·기업이 자유롭게 활용해 앱을 만든다.

📂 88,000+ 데이터셋 개방 (2024)

CASE 02 · COVID DATA

코로나19 실시간 데이터

질병관리청 + 통신사 + 카드사 데이터 결합해 확진자 동선 24시간 내 파악. '코로나맵' 같은 시민 제작 앱도 등장.

⚡ 평균 추적 시간 24h (세계 1위)

CASE 03 · TRANSPORT

교통·내비게이션 빅데이터

카카오맵·티맵이 매일 수천만 사용자의 GPS·속도 데이터를 분석해 실시간 교통 정체·최적 경로 예측. 정부는 도시 교통 정책에 활용.

🚗 매일 5천만+ 위치 정보 처리

CASE 04 · K-MEDICAL

의료 빅데이터 — K-MASTER

국립암센터의 K-MASTER 사업으로 한국인 암 환자 유전체·임상 데이터 1만 명+ 축적. 한국인 맞춤형 항암 치료 개발 기반.

🧬 한국인 암 유전체 1만+ 분석

SECTION 02

빅데이터의 활용 — 모든 분야로 확산

과학·의료·산업·정부·교통·환경 — 거의 모든 영역이 빅데이터로 재구성되고 있다. 2024년 기준 전 세계 빅데이터 시장 규모는 약 3,470억 달러(약 470조 원), 매년 13%씩 성장한다. "21세기의 원유"로 불리는 데이터는 자체로는 의미가 없지만, 분석을 통해 가치(Value)로 변환된다. 여기서 핵심은 빅데이터 + AI(인공지능)의 결합 — 데이터가 연료라면 AI는 엔진이다. 8가지 대표 분야에서 어떻게 활용되고 있는지 살펴보자.

🌐 빅데이터 활용 8대 분야 — 통계로 보는 변화

🧬

FIELD 01 · GENOMICS

유전체·정밀의료

인간 유전체 30억 글자(A·T·G·C)를 분석해 맞춤형 치료. 2003년 13년·30억 달러 → 2024년 1일·1천 달러로 단축. 한국인 맞춤 항암제·희귀병 진단이 가능해졌다.

$1,000 / 1일

유전체 분석 비용·시간 (2024)

🌡

FIELD 02 · WEATHER

기상·기후 예측

전 세계 11,000+ 관측소·7,000+ 부이·3,000+ 인공위성 데이터를 슈퍼컴퓨터가 분석. 1990년 3일 예보 정확도 70% → 2024년 7일 예보 95% 정확.

7일 95% 정확

기상청 일기예보 정확도

🚗

FIELD 03 · MOBILITY

자율주행·모빌리티

자율주행차는 카메라·라이다·레이더로 초당 4 GB·하루 4 TB 데이터 처리. 테슬라 700만 대가 매일 도로 데이터를 학습 데이터로 전송 → AI 성능 향상.

4 TB / 일

자율주행차 1대당 일 데이터

💊

FIELD 04 · DRUG

신약·의료 AI

알파폴드(AlphaFold)가 단백질 2억 개 구조를 며칠 만에 예측 — 50년 난제 해결. 2024년 노벨 화학상. 신약 후보 발굴 기간 15년 → 2년으로 단축.

2억 개 / 며칠

알파폴드 단백질 구조 해독

🏙

FIELD 05 · SMART CITY

스마트시티·도시

교통·전기·물·쓰레기 실시간 통합 관리. 서울 S-DoT 센서 1,100대가 미세먼지·소음·온도 모니터링. 바르셀로나는 IoT로 물 사용량 25% 감축.

1,100대

서울 S-DoT 도시 센서망

🛒

FIELD 06 · RECOMMEND

맞춤 추천·커머스

넷플릭스 시청 시간 80%가 추천 영상. 아마존 매출의 35%가 추천에서 발생. 사용자 클릭·시청 시간·평점 등 수십 가지 변수로 취향 예측.

80% / 35%

넷플릭스 시청·아마존 매출 중 추천 비중

🏦

FIELD 07 · FINTECH

금융·핀테크

카드사·은행이 거래 패턴을 실시간 AI 분석해 이상 거래 차단. 토스·카카오뱅크는 신용평가에 SNS·통신 사용 패턴 등 대안 데이터 활용.

98% / 0.1초

사기 탐지 정확도·차단 시간

🦠

FIELD 08 · EPIDEMIC

감염병·공중보건

BlueDot은 코로나 유행 9일 전 우한 비정상 폐렴을 경보. 휴대폰·SNS·검색어·항공편 데이터를 결합해 다음 유행지·확산 속도 예측.

9일 전

BlueDot 코로나 조기 경보

BIG DATA × AI · 21세기 과학의 두 엔진

🤖 빅데이터 + AI = 새로운 과학 혁명

데이터가 연료라면 AI는 엔진이다. 둘은 분리될 수 없다 — AI는 빅데이터로 학습해 똑똑해지고, 빅데이터는 AI 없이는 사람이 분석할 수 없다. 딥러닝은 이미지·음성·언어 데이터에서 사람도 못 보던 패턴을 찾아낸다. 2012년 알렉스넷이 이미지 인식 정확도를 단숨에 10%포인트 높인 이래, 알파고(2016)·알파폴드(2020)·GPT(2022)까지 모두 빅데이터로 학습한 AI다. 2024년 노벨 물리학상·화학상 모두 AI가 받았다 — 데이터로 학습한 AI가 인류 지식의 새 영역을 열고 있다.

2024 노벨상

물리학상(힌튼·홉필드 — 딥러닝) + 화학상(알파폴드)

15년 → 2년

AI 활용 신약 개발 기간 단축

$15.7조

2030 AI 경제 효과 (PwC)

📊 전통적 방식 vs 빅데이터 방식 — 의사결정의 혁명

분야	전통적 방식	빅데이터 방식
의료 진단	의사의 경험·교과서 기반	AI가 X-ray·MRI·유전체 분석(IBM Watson·VUNO)
일기예보	지역 관측소 + 베테랑 예보관 직감	전 세계 데이터 + AI(GraphCast) — 10일 예보 정확
광고·마케팅	TV·신문 매스 광고, 모두에게 동일	개인 맞춤 광고 — 검색·클릭·구매 패턴 기반
신약 개발	15년·$26억, 시행착오 중심	AI 가상 스크리닝 — 2년·$4억으로 단축
금융 신용평가	소득·자산·과거 거래만 평가	대안 데이터(SNS·통신·결제·심리테스트)도 활용
스포츠 전략	감독·코치의 경험과 직관	머니볼·세이버메트릭스 — 모든 플레이 데이터 분석
정책 결정	설문조사 + 전문가 의견	전수 데이터 + 시뮬레이션 — 정책 효과 사전 예측

🌟 빅데이터가 만든 4대 임팩트 사례

CASE 01 · GENOMICS

인간 유전체 사업 (HGP) — 30억 글자 해독

1990~2003년 미국·영국·일본·중국·한국 등이 참여한 13년 30억 달러 국제 프로젝트. 인간 DNA 30억 글자를 모두 읽어냈다. 이후 분석 비용은 매년 절반씩 떨어져 2024년엔 1일·1천 달러면 가능. 이 데이터로 암·치매·당뇨 등 1,800가지 유전자 변이를 발견, 맞춤 항암제·정밀 의료의 토대가 되었다.

IMPACT비용 300만 배 하락 · 1,800가지 유전자 변이 발견 · 맞춤 의료 시대 개막

CASE 02 · MONEYBALL

오클랜드 머니볼 (2002) — 빅데이터가 야구를 바꿨다

예산 부족의 오클랜드 단장 빌리 빈이 통계 기반 선수 평가로 부유한 팀에 도전. 출루율·장타율 등 세이버메트릭스로 저평가 선수를 발굴, 2002년 20연승(MLB 신기록) 달성. 영화화·책으로 유명해진 후 모든 메이저리그 팀이 데이터 분석팀 도입. KBO도 2010년대부터 데이터 분석 확산.

IMPACT예산 1/3로 우승 도전 · 모든 스포츠로 확산 · 데이터 분석 직업 폭증

CASE 03 · NETFLIX

넷플릭스 — 시청 데이터로 콘텐츠를 만들다

2억+ 가입자의 일시정지·재시청·완주율·검색까지 모두 분석. 시청 시간 80%가 추천 영상이다. 더 나아가 "하우스 오브 카드"(2013) 제작 시 — 사람들이 정치 드라마·케빈 스페이시·데이비드 핀처를 좋아한다는 데이터로 기획, 파일럿 없이 바로 시즌 2개 제작. 빅데이터가 창작까지 바꿨다.

IMPACT2억+ 가입자 데이터 · 추천 알고리즘 80% 시청 점유 · 데이터 기반 콘텐츠 제작

CASE 04 · ALPHAFOLD

알파폴드 — 50년 난제를 며칠 만에 해결

단백질이 어떤 3D 모양으로 접히느냐는 생물학 50년 난제. 구글 딥마인드의 알파폴드(2020)가 PDB 단백질 데이터베이스 17만 개로 학습, 2억 개 단백질 구조를 며칠 만에 예측해 무료 공개. 신약 개발·말라리아·항생제 내성 연구가 폭발적으로 가속. 2024년 노벨 화학상 수상.

IMPACT50년 난제 해결 · 2억 개 구조 무료 공개 · 신약 개발 가속 · 2024 노벨 화학상

CLASSIC CASE · 2008

🔍 구글 독감 트렌드(Google Flu Trends) — 빅데이터 시대의 신호탄

2008년 구글은 미국 정부 보건당국(CDC)보다 1~2주 빠르게 독감 유행을 예측해 세계를 놀라게 했다. 방법은 단순했다 — "독감 증상" "기침" "고열" "오한" 같은 검색어가 늘어나는 지역에서 곧 독감 환자가 증가한다는 패턴. 45개 검색어로 독감 유행을 추적해 네이처(Nature) 논문으로 발표, 빅데이터 활용의 고전이 되었다.

다만 한계도 드러났다 — 2013년 독감 환자 수를 2배 과대 예측하는 실수. 이유: 사람들이 무서워서 "독감" 검색을 많이 했을 뿐 실제 환자는 적었다. 이 사건은 빅데이터가 만능이 아님을 보여줬다 — 검증되지 않은 신호는 잘못된 결론을 낳을 수 있다. V = Veracity(신뢰성)가 중요한 이유다.

STEP 01

검색어 수집

"독감"·"기침"·"고열"·"오한" 등 45개 키워드 추적

STEP 02

지역별 분석

주(state)·도시별 검색량 변화 패턴 파악

STEP 03

유행 예측

CDC보다 1~2주 빠르게 독감 확산 예보

STEP 04

한계 노출

2013년 과대 예측 — 데이터 검증의 중요성 부각

INSIGHT빅데이터가 바꾸는 과학 방법론 — 가설 → 데이터에서 데이터 → 가설로

전통 과학은 가설 수립 → 실험 → 검증의 순서였다. 이를 가설 주도(hypothesis-driven) 연구라고 한다. 그러나 빅데이터 시대에는 데이터 주도(data-driven) 연구가 가능해졌다 — 먼저 방대한 데이터를 모은 후 AI로 패턴을 찾고, 거기서 새 가설을 도출. 알파폴드는 단백질 데이터에서 구조 패턴을 찾았고, 한국 K-MASTER는 환자 데이터에서 새 치료법을 발견한다. 이것이 제4 과학 패러다임(짐 그레이) — 실험·이론·계산에 이은 데이터 집약형 과학의 시대다.

SECTION 03

빅데이터의 양면 — 장점과 문제점

빅데이터는 양날의 검이다. 한쪽에는 과학·의료·산업의 혁명이, 다른 쪽에는 개인정보 침해·편향·디지털 격차가 있다. 도구 자체에 선·악은 없다 — 누가, 어떻게, 어떤 목적으로 쓰느냐가 결정한다. 2018년 케임브리지 애널리티카 스캔들·2017년 에퀴팩스 해킹·아마존 AI 채용 차별 등 실제 사건들이 "데이터 윤리"의 중요성을 환기시켰다. EU는 2018년 GDPR, 한국은 2020년 데이터 3법으로 균형을 시도하고 있다.

⚖ 장점과 문제점 — 두 얼굴을 자세히

PROS · 8 BENEFITS

✅ 장점 — 빅데이터가 만드는 미래

🔬 새로운 과학적 발견 가속

알파폴드가 50년 난제(단백질 구조)를 며칠 만에 해결. CERN 입자물리·천문학·게놈학이 빅데이터로 혁명.

2024 노벨상 (물리·화학)

💊 개인 맞춤형 의료·서비스

유전체 분석으로 맞춤 항암제. 넷플릭스·유튜브가 개인 취향에 맞는 콘텐츠 추천.

정밀의료 시대

🚨 사회 문제 예방

범죄 예측(LA경찰 PredPol)·교통 정체 예측·재해 조기 경보. BlueDot은 코로나 9일 전 경보.

선제적 대응 가능

🏭 산업 효율·생산성 향상

제조업 스마트팩토리로 불량률 90% 감소. 농업은 정밀농업으로 수확 30% 증가.

$15.7조 경제효과

📈 의사결정의 객관화

경험·직관 → 데이터 근거 의사결정. 정책 효과를 사전에 시뮬레이션으로 예측.

증거 기반 정책

💼 새 일자리·산업 창출

데이터 분석가·데이터 엔지니어·AI 과학자 — 미국 BLS 가장 빠르게 성장하는 직업.

+11.5만 명/년 (한국)

🌍 글로벌 협력·지식 공유

COVID-19 유전체 데이터 GISAID로 즉시 공유. 알파폴드 2억 단백질 무료 공개.

오픈 사이언스

💰 비용 절감·경제 효율

유전체 분석 비용 300만 배 하락. 신약 개발 $26억→$4억. 통신비·금융 수수료도 감소.

소비자 편익↑

CONS · 8 RISKS

⚠ 문제점 — 빅데이터가 만드는 그림자

👁 개인정보 침해·감시 사회

GPS·검색·구매·SNS — 모든 행동이 추적된다. 중국 사회신용 시스템·CCTV 6억대는 디스토피아 경고.

조지 오웰 "1984"

👑 데이터 독점 — 소수의 정보 권력

GAFAM(구글·애플·페이스북·아마존·MS) + 중국 BAT가 세계 데이터의 70%+ 보유. 신생 기업·국가는 경쟁 불가.

디지털 독과점

⚖ 편향된 데이터 → 편향된 결정

아마존 AI 채용은 여성 차별, COMPAS 재범 예측은 흑인 차별. 학습 데이터가 편향되면 AI도 편향.

Garbage in, Garbage out

🔓 해킹·정보 유출 위험

2017 에퀴팩스 1.5억 명, 2014 야후 30억 명, 2023 카카오 3억 건 유출. 한번 새면 회복 불가능.

사이버 범죄 $9조/년

📵 디지털 격차

인터넷 없는 인구 26억 명. 노인·저소득층·개발도상국이 데이터 시대에서 배제된다. 격차는 더 벌어진다.

26억 명 인터넷 X

🤖 책임 소재 모호 — AI의 결정

자율주행차 사고는 누구 책임? 의료 AI 오진은? 알고리즘이 대출 거부하면? 설명 가능 AI(XAI)가 과제.

블랙박스 문제

📰 가짜뉴스·여론 조작

2016 미 대선 케임브리지 애널리티카 사건. 딥페이크·생성 AI가 가짜 정보를 무한 생산.

민주주의 위협

🧠 중독·정신 건강

SNS 알고리즘이 청소년 우울증 유발(2021 페이스북 내부 문서). 추천 시스템이 시간을 빼앗는다.

청소년 우울 +30%

⚠ 빅데이터·AI 시대의 그림자 — 7대 사건

2018 · CAMBRIDGE ANALYTICA

케임브리지 애널리티카 스캔들

영국 데이터 분석업체가 페이스북 사용자 8,700만 명의 개인정보를 동의 없이 수집해 2016년 미국 대선·브렉시트 광고에 활용. 마크 저커버그가 미 의회 청문회 출석.

💸 페이스북 $50억 벌금

LESSON데이터는 정치·민주주의까지 흔들 수 있다. SNS 광고 규제 강화의 계기.

2017 · EQUIFAX

에퀴팩스 신용정보 해킹

미국 신용평가사 해킹으로 1.47억 명의 주민번호·생년월일·신용카드·운전면허증 유출. 미국 성인의 절반이 피해. 보안 패치 지연이 원인.

💸 $14억 손실 + CEO 사임

LESSON중앙 집중형 데이터의 위험. 한번 새면 평생 영향. 다중 인증·암호화 필수.

2014 · AMAZON AI HIRING

아마존 AI 채용 — 여성 차별

아마존이 개발한 AI 이력서 평가 시스템이 여성 지원자를 자동 감점. 원인: 과거 10년간 합격자 데이터(주로 남성)로 학습 → 편향 재생산. 2018년 폐기.

⚖ AI 채용 시스템 폐기

LESSON편향된 데이터 → 편향된 AI. 학습 데이터의 다양성·공정성 검증이 필수.

2016 · COMPAS

COMPAS 재범 예측 — 인종 차별

미국 법원이 사용한 재범 위험 예측 AI가 흑인을 백인보다 2배 위험하다고 평가(실제 재범률은 비슷). ProPublica의 폭로로 알고리즘 차별 논쟁 점화.

⚖ 알고리즘 감사 법안 통과

LESSON형사사법에서 AI 사용은 위험. 책임 소재·설명 가능성·감사가 필수.

2023 · KAKAO

카카오 SK C&C 데이터센터 화재

한국 1위 메신저 카카오톡이 5일간 마비(2022.10.15). 5천만 명 이용자·소상공인 피해. 데이터 분산 백업 부재가 원인. 김범수 의장 국정감사 출석.

💸 카카오 1조 원 보상

LESSON핵심 인프라(메신저·금융·교통)의 빅데이터 의존성·분산 백업 중요성 부각.

2021 · FACEBOOK FILES

페이스북 내부 폭로 — 청소년 정신건강

전 직원 프랜시스 호건이 폭로 — 인스타그램이 10대 소녀 우울증·자살 충동을 악화시킨다는 페이스북 내부 연구 보고서. 미국·EU 청문회.

⚖ 청소년 SNS 규제 입법

LESSON알고리즘이 인간 정신건강에 미치는 영향. 청소년 데이터 보호 우선.

📵

디지털 격차 (Digital Divide) — 새로운 불평등

빅데이터 시대의 그림자 — 데이터에 접근하는 자와 못 하는 자

2024년 기준 전 세계 인구의 67%만 인터넷 사용(53억 명) — 나머지 26억 명은 디지털 시대에서 배제됐다. 주로 사하라 이남 아프리카·남아시아·노인층. 한국도 노인 디지털 정보화 수준이 청년의 70% 수준에 머물러, 키오스크·모바일 뱅킹·온라인 진료 예약에서 어려움을 겪는다. 코로나 시기 온라인 수업 격차가 학력 격차로 직결된 사례도 있다. 빅데이터 혜택은 가진 자에게 더 집중되고, 격차는 점점 벌어진다.

26억

전 세계 인터넷 미사용자 (ITU 2024)

37%

아프리카 인터넷 보급률 (세계 평균 67%)

70%

한국 고령층 디지털 정보화 수준

2배

코로나 후 OECD 학력 격차 확대

📜 데이터 시대를 지키는 법규 — 세계 3대 모델

🇪🇺

LAW 01 · GDPR 2018

EU 일반 개인정보 보호법

2018년 5월 시행. 세계에서 가장 강력한 개인정보 보호법으로 평가. "잊혀질 권리"·데이터 이동권·동의 원칙을 명문화.

KEY · 위반시 벌금전 세계 매출의 4% 또는 2천만 유로 중 큰 금액. 메타·구글이 수억 유로 벌금.

📌 영향: 한국·일본·브라질 모두 GDPR 모델 채택

🇰🇷

LAW 02 · 데이터 3법 2020

한국 데이터 3법

2020년 시행. 개인정보보호법·정보통신망법·신용정보법을 동시 개정. 가명정보·익명정보 활용 가능 + 개인정보보호위원회 신설.

KEY · 균형 시도활용(가명정보) + 보호(동의·삭제권)를 균형. 마이데이터 사업으로 개인이 자기 데이터 관리.

📌 영향: 핀테크·디지털 헬스 산업 가능해짐

🇺🇸

LAW 03 · CCPA 2020

캘리포니아 소비자 개인정보 보호법

2020년 시행. 미국 최초의 포괄적 개인정보법. 거주자는 자기 데이터가 어떻게 쓰이는지 알 권리·삭제 요구권을 가진다.

KEY · 미국식 접근연방법 X, 주(州) 단위. 캘리포니아·버지니아·콜로라도 등 확산. 미국 전체로 확장 중.

📌 영향: 실리콘밸리 빅테크 직격탄

🌟 데이터 윤리 — 빅데이터 시대의 6대 원칙

PRINCIPLE 01

🔐

프라이버시 (Privacy)

개인정보는 본인 동의 없이 수집·활용할 수 없다. "잊혀질 권리"·익명화·암호화 필수.

PRINCIPLE 02

⚖

공정성 (Fairness)

편향된 데이터 → 편향된 결정. 인종·성별·연령으로 차별하지 않도록 알고리즘 감사.

PRINCIPLE 03

🔍

투명성 (Transparency)

AI가 왜 그 결정을 했는지 설명할 수 있어야 한다. 설명 가능 AI(XAI)가 중요.

PRINCIPLE 04

🛡

안전성 (Security)

해킹·유출 방지. 다중 인증·암호화·분산 백업·정기 보안 감사가 필수.

PRINCIPLE 05

👥

책임성 (Accountability)

AI가 실수해도 결국 책임은 사람·기업에 있다. 알고리즘 감사·이의제기 권리 보장.

PRINCIPLE 06

🤝

포용성 (Inclusion)

디지털 격차 해소. 모든 시민이 데이터 혜택을 누리도록 교육·접근권 보장.

BALANCE데이터 윤리 — 도구의 시대를 사는 우리의 책임

빅데이터는 인류에게 도구일 뿐, 그 자체로 선·악은 아니다. 다이너마이트가 광산·터널을 뚫기도 하고 전쟁에 쓰이기도 했듯, 데이터도 어떻게 쓰느냐가 결정한다. EU의 GDPR, 한국의 데이터 3법, 미국의 CCPA 등이 활용과 권리의 균형을 시도하고 있다. 2024년 EU는 세계 최초로 AI 법(AI Act)을 통과시켰고, 한국도 2025년 시행 예정. 그러나 법만으로는 부족하다 — 모든 시민이 데이터 시대의 윤리를 이해해야 한다. 과학기술의 발전 속도만큼, 우리의 윤리적 사고도 자라야 한다. 여러분이 SNS에 글을 올리고, 앱을 다운로드하고, 검색하는 모든 순간이 데이터를 만든다. "내 데이터는 어디로 가는가?"를 질문하는 시민이, 빅데이터의 미래를 결정한다.

EXPLORATION · 탐구 활동

📊 우리 학교의 빅데이터 만들기

1

학교에서 매일 생성되는 데이터를 찾아본다 (출석·성적·도서관 이용·식당 사용·교통).

2

그 데이터를 분석하면 어떤 인사이트가 나올지 추론 (예: 시간대별 식당 혼잡도).

3

그 데이터로 학교를 더 좋게 만들 방법을 제안한다.

4

동시에 개인정보 보호·동의 문제를 토의한다.

WRAP UP

이 단원에서 배운 것

빅데이터의 4V 정의·데이터 단위 사다리·생성원·처리 5단계부터 8대 활용 분야·AI 결합·임팩트 사례, 그리고 케임브리지 애널리티카·아마존 AI 편향까지 양면성과 윤리 6대 원칙까지 — 21세기 원유인 데이터가 어떻게 우리 삶을 바꾸고 있는지 그 전체 그림을 보았다. 6개의 핵심 개념으로 정리한다.

KEY 01 빅데이터의 4V — 무엇이 '빅'한가

빅데이터는 단순히 양이 많은 데이터가 아니라 4가지 V로 정의된다 (2001년 더그 레이니). ① Volume(양·175 ZB/년) · ② Velocity(속도·구글 4만건/초) · ③ Variety(다양성·비정형 80%) · ④ Veracity(신뢰성·$3.1조 손실). 데이터 단위는 KB → MB → GB → TB → PB → EB → ZB → YB로 1024배씩 커진다 — 인류는 매일 2.5 EB(=250경 바이트) 생성, 500년간 인쇄된 모든 책(약 5 EB)을 2일마다 새로 만드는 셈. 최근엔 ⑤ Value(가치)·⑥ Variability(변동성)·⑦ Visualization(시각화)을 더해 7V로 확장하기도 한다.

KEY 02 데이터의 원천과 5단계 처리 흐름

데이터는 스마트폰 68억 대·CCTV 10억 대·IoT 300억 대·인공위성·자율주행차(4 TB/일)·웨어러블·SNS·유전체에서 매 순간 쏟아진다. 인터넷 단 1분에 구글 600만 검색·유튜브 500시간 업로드·인스타 7만 장·왓츠앱 5억 통이 일어난다.
빅데이터는 5단계로 처리된다 — ① 수집(Collect) 센서·API·크롤링 · ② 저장(Store) Hadoop·NoSQL·클라우드 · ③ 정제(Clean) 결측·이상치 제거(80% 시간) · ④ 분석(Analyze) 통계·머신러닝·딥러닝 · ⑤ 시각화(Visualize) 그래프·대시보드.

KEY 03 8대 활용 분야 + 빅데이터 × AI

빅데이터는 거의 모든 영역에 활용된다 — 🧬 유전체($1,000/1일) · 🌡 기상(7일 95%) · 🚗 자율주행(4 TB/일) · 💊 신약(15년→2년) · 🏙 스마트시티(서울 S-DoT 1,100대) · 🛒 추천(넷플릭스 80%·아마존 35%) · 🏦 금융(98% 사기 탐지) · 🦠 감염병(BlueDot 9일 전).
핵심은 빅데이터 + AI — 데이터는 연료, AI는 엔진. 알파폴드(2024 노벨화학상)가 단백질 2억 개를 며칠 만에 해독, 2024년 노벨 물리학상·화학상 모두 AI가 받았다. 2030년 AI 경제효과는 $15.7조(PwC) 예상.

KEY 04 21세기의 원유 — 데이터가 바꾸는 과학·산업

"데이터는 21세기의 원유(Data is the new oil)" — 2006년 영국 수학자 클라이브 험비. 자체로는 의미 없지만, 정제·분석을 통해 가치(Value)로 변환된다. 데이터를 잘 다루는 자가 미래를 주도한다 — 미국 BLS는 데이터 분석가·AI 엔지니어를 가장 빠르게 성장하는 직업으로 선정, 한국도 매년 11.5만 명 신규 수요.
과학 방법론도 바뀌었다 — 전통적 가설 주도 연구(가설→실험→검증)에서 빅데이터 시대의 데이터 주도 연구(데이터→패턴→가설)로. 짐 그레이가 명명한 제4 과학 패러다임 = 실험·이론·계산에 이은 데이터 집약형 과학의 시대다.

KEY 05 양면성 — 그림자와 6대 사건

빅데이터는 양날의 검이다. 한쪽엔 과학·의료·산업 혁명, 다른 쪽엔 8가지 그림자 — 👁 개인정보 침해 · 👑 데이터 독점(GAFAM·BAT 70%+) · ⚖ 편향(아마존 AI 여성 차별) · 🔓 해킹·유출 · 📵 디지털 격차(26억 명) · 🤖 책임 모호(블랙박스) · 📰 가짜뉴스(딥페이크) · 🧠 청소년 정신건강.
실제 사건 6대 — 2018 케임브리지 애널리티카(8,700만 명·페북 $50억 벌금) · 2017 에퀴팩스(1.47억 명 유출) · 2014 아마존 AI 채용(여성 차별) · 2016 COMPAS(흑인 차별) · 2023 카카오(5일 마비·1조 보상) · 2021 페이스북 파일(청소년 우울). 이 사건들이 데이터 윤리·법규 강화의 기폭제가 되었다.

KEY 06 데이터 윤리·법규 — 도구의 시대를 사는 우리의 책임

세계 3대 법규: 🇪🇺 GDPR(2018)(매출 4% 벌금·잊혀질 권리) · 🇰🇷 데이터 3법(2020)(가명정보·마이데이터) · 🇺🇸 CCPA(2020)(캘리포니아 발). 2024년 EU는 세계 최초로 AI 법(AI Act)을 통과시켰다.
데이터 윤리 6대 원칙: ① 🔐 프라이버시 · ② ⚖ 공정성 · ③ 🔍 투명성(설명 가능 AI) · ④ 🛡 안전성 · ⑤ 👥 책임성 · ⑥ 🤝 포용성(디지털 격차 해소).
빅데이터는 도구일 뿐 — 누가, 어떻게, 어떤 목적으로 쓰느냐가 미래를 결정한다. 여러분이 SNS에 글을 올리고 검색하는 모든 순간이 데이터를 만든다. "내 데이터는 어디로 가는가?"를 질문하는 시민이, 빅데이터의 미래를 결정한다.